INRIA Person Dataset 原始数据

提供者:刘晓

地址:http://pascal.inrialpes.fr/data/human/

简介

INRIA Person 数据集用来对图像和视频中的直立行人进行检测。该数据集包含两类格式的数据,第一类为原始图像和相应的直立行人标注。第二类为标准化为 64x128 像素的直立性人正类和对应图片的负类图像

数据集内容

  • 数据集包含来自几个不同来源的图像:
    来自GRAZ 01数据集的图像,尽管注释文件是全新的。
  • 来自长时间拍摄的个人数字图像集的图像。通常原始正像的分辨率非常高(约2592x1944像素),所以我们裁剪这些图像以突出显示人物。很多人都是旁观者从这些输入照片的背景拍摄的,所以理想的是他们的姿势没有特别的偏见。
  • 使用谷歌图像从网络上拍摄的图像很少。

注意:

  • 每张图片上只标出身高> 100的正直人物。
  • 注释可能不正确;特别是有时候注释边界框的部分可以在对象外部或内部

原始图像(Original Images)

文件夹’train’和’test’分别对应于原始训练和测试图像。两个文件夹都有三个子文件夹:(a)’pos’(正面训练或测试图像),(b)’neg’(负面训练或测试图像)和(c)’注释’(帕斯卡挑战格式)。

标准化图像(Normalized Images)

文件夹’train_64x128_H96’和’test_64x128_H96’对应于上述参考文献中使用的规范化数据集。两个文件夹都有两个子文件夹:(a)’pos’(标准化的正面训练或以左右反射为中心的测试图像),(b)’neg’(包含原始负面训练或测试图像)。文件夹’train / pos’中的图像大小为96x160像素(每边各有16像素的边距),文件夹’test / pos’中的图像大小为70x134像素(每边3像素)。这样做是为了避免边界条件(从而避免分类器中的任何特定偏差)。在这两个文件夹中,使用居中的64x128像素窗口进行原始检测任务。

负窗口(Negative windows)

为了从归一化图像生成否定训练窗口,从1218个负训练照片中随机采样固定的12180个窗口(每个负图像10个窗口),提供初始负训练集。对于每个检测器和参数组合,初步检测器被训练,所有负面训练图像被彻底地搜索(在尺度空间金字塔上)以获得误报(“硬件例子”)。所有得分大于零的例子都被认为是很难的例子。然后使用该增强集(初始12180 +硬示例)重新训练该方法以产生最终检测器。如果有必要,将这组硬副本进行二次采样,以便最终训练集的描述符适合支持SVM训练的1.7 GB RAM。

上面的比例空间金字塔中的开始比例是1,我们不断在金字塔中添加一个级别直到floor(ImageWidth / Scale)> 64和floor(ImageHeight / Scale)> 128。金字塔中两个连续水平之间的比例为1.2。任何尺度的窗口步幅(两个连续窗口之间的采样距离)为8个像素。如果在将所有窗口放在一个比例级别上后,边界仍有一些余量,我们将余量除以2,取其底部并移动整个窗口网格。例如,如果当前级别的图像大小为(75,130),剩余的余量(步幅为8,窗口大小为64,128)为(3,2)。我们将所有窗口移动(楼层(MarginX / 2),楼层(MarginY / 2))。使用以下公式计算新图像宽度和高度:NewWidth = floor(OrigWidth / Scale)和NewHeight = floor(OrigHeight / Scale)。这里scale = 1意味着原始图像的大小。

在测试负面图像时,为了创建负窗口,我们使用相同的采样结构

数据大小及下载

数据下载地址:ftp://ftp.inrialpes.fr/pub/lear/douze/data/INRIAPerson.tar (970MB)。为避免复制图像,使用符号链接引用’train_64x128_H96’和’test_64x128_H96’中的’neg’图像文件夹。

相关论文

[1]. M Taiana , JC Nascimento , A Bernardino. An Improved Labelling for the INRIA Person Data Set for Pedestrian Detection. 2013.